The interpretation of deep learning models is a challenge due to their size, complexity, and often opaque internal state. In addition, many systems, such as image classifiers, operate on low-level features rather than high-level concepts. To address these challenges, we introduce Concept Activation Vectors (CAVs), which provide an interpretation of a neural net's internal state in terms of human-friendly concepts. The key idea is to view the high-dimensional internal state of a neural net as an aid, not an obstacle. We show how to use CAVs as part of a technique, Testing with CAVs (TCAV), that uses directional derivatives to quantify the degree to which a user-defined concept is important to a classification result-for example, how sensitive a prediction of zebra is to the presence of stripes. Using the domain of image classification as a testing ground, we describe how CAVs may be used to explore hypotheses and generate insights for a standard image classification network as well as a medical application.
translated by 谷歌翻译
我们介绍了Sparrow,这是一个寻求信息的对话代理,与提示的语言模型基线相比,训练有素,更有帮助,正确和无害。我们使用从人类反馈中的强化学习来培训我们的模型,以帮助人类评估者判断代理人的行为。首先,为了使我们的代理人更有帮助和无害,我们将良好对话的要求分解为代理人应遵循的自然语言规则,并分别向评估者询问每个规则。我们证明,这种崩溃使我们能够收集对代理行为的更多针对性的人类判断,并允许更有效的规则条件奖励模型。其次,我们的代理商在收集对模型声明的偏好判决时提供了支持事实主张的来源的证据。对于事实问题,麻雀提供的证据支持了78%的时间。比基线比基线更享受麻雀,同时对人类的对抗性探测更具弹性,在探测时只有8%的时间违反了我们的规则。最后,我们进行了广泛的分析,表明尽管我们的模型学会遵守我们的规则,但它可以表现出分布偏见。
translated by 谷歌翻译
降低降低和聚类通常被用作许多复杂机器学习任务的初步步骤。噪声和离群值的存在可能会恶化此类预处理的性能,从而极大地损害了后续分析。在流形学习中,几项研究表明,当密度大大高于噪声所示时,可以消除接近结构的背景噪声或接近结构的解决方案。但是,在包括天文数据集在内的许多应用中,密度随埋在嘈杂背景的流形而变化。我们提出了一种基于蚂蚁菌落优化的思想,在存在噪声的情况下提取歧管的新方法。与现有的随机步行解决方案相反,我们的技术捕获了与歧管的主要方向局部对齐的点。此外,我们从经验上表明,蚂蚁信息素的生物学启发的配方增强了这种行为,使其能够恢复嵌入极其嘈杂的数据云中的多个歧管。与在几个合成和真实数据集上(包括宇宙学量的N体模拟)相比,证明了与最新的降噪方法的最新方法相比,算法性能。
translated by 谷歌翻译
使用模型热引擎,我们表明基于神经网络的增强学习可以识别最大效率的热力学轨迹。我们考虑梯度和渐变的加强学习。我们使用进化学习算法来发展神经网络的群体,受指令以最大化由一组基本热力学过程组成的轨迹的效率;由此产生的网络学习进行最大高效的克罗特,斯特林或奥托周期。当给出额外的不可逆转过程时,这种进化方案学习先前未知的热力学循环。基于梯度的强化学习能够学习斯特林循环,而进化方法能够实现最佳的圆形循环。我们的结果展示了如何应用为游戏播放开发的增强学习策略来解决在路径广泛的订单参数上调节身体问题。
translated by 谷歌翻译